home *** CD-ROM | disk | FTP | other *** search
/ Celestin Apprentice 5 / Apprentice-Release5.iso / Source Code / Libraries / DCLAP 6d / dclap6d / SeqPups / apps / clustalw.doc < prev    next >
Text File  |  1996-07-05  |  24KB  |  488 lines

  1. clustalw_help   for version 1.4 (September 1994).
  2.  
  3. This is the on-line help file for CLUSTAL W.   
  4.  
  5. It should be named or defined as: clustalw_help 
  6. except with MSDOS in which case it should be named CLUSTALW.HLP
  7.  
  8. For full details of usage and algorithms, please see the files:
  9. cluustalv.doc    The documentation for Clustal V (most of the program usage
  10.                  and the basic algorithms are the same).
  11. clustalw.ms      A manuscript describing the main algorithmic changes over
  12.                  Clustal V.
  13. readme.txt       A brief summary of the main changes over Clustal V.
  14.  
  15.  
  16. Toby  Gibson
  17. Des   Higgins    (now at the EBI, Hinxton, Great Britain)
  18. Julie Thompson
  19.  
  20. EMBL, Heidelberg, Germany.    
  21.  
  22.  
  23. The paper describing Clustal W is:
  24.  
  25. Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994)
  26. CLUSTAL W: improving the sensitivity of progressive multiple
  27. sequence alignment through sequence weighting, position specific
  28. gap penalties and weight matrix choice.
  29. Nucleic Acids Research, submitted, June 1994.
  30.  
  31.  
  32. >>HELP 1 <<             General help for CLUSTAL W 
  33.  
  34. Clustal W is a general purpose multiple alignment program for DNA or proteins.
  35.  
  36. SEQUENCE INPUT:  all sequences must be in 1 file, one after another.  
  37. 6 formats are automatically recognised: NBRF/PIR, EMBL/SWISSPROT, 
  38. Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup) and GDE.
  39. All non-alphabetic characters (spaces, digits, punctuation marks) are ignored
  40. except "-" which is used to indicate a GAP ("." in GCG/MSF).  
  41.  
  42.  
  43. To do a MULTIPLE ALIGNMENT on a set of sequences, use item 1 from this menu to 
  44. INPUT them; go to menu item 2 to do the multiple alignment.
  45.  
  46. PROFILE ALIGNMENTS (menu item 3) are used to align 2 alignments or to add a set
  47. of new sequences to an old alignment.  Use this to add new sequences to an old
  48. alignment.  GAPS in the old alignments are 
  49. indicated using the "-" character.   PROFILES can be input in ANY of the
  50. allowed formats; just use "-" (or "." for MSF) for each gap position.
  51.  
  52. PHYLOGENETIC TREES (menu item 4) can be calculated from old alignments (read in
  53. with "-" characters to indicate gaps) OR after a multiple alignment while the 
  54. alignment is still in memory.
  55.  
  56.  
  57. The program tries to automatically recognise the different file formats used
  58. and to guess whether the sequences are amino acid or nucleotide.  This is not
  59. always foolproof.
  60.  
  61. FASTA and NBRF/PIR formats are recognised by having a ">" as the first 
  62. character in the file.  
  63.  
  64. EMBL/Swiss Prot formats are recognised by the letters
  65. ID at the start of the file (the token for the entry name field).  
  66.  
  67. CLUSTAL format is recognised by the word CLUSTAL at the beginning of the file.
  68.  
  69. GCG/MSF format is recognised by the word PileUp at the start of the file.  If
  70. your msf files do not contain this word first, edit it in at the start
  71. of the first line.  
  72.  
  73. If 85% or more of the characters in the sequence are from A,C,G,T,U or N, the
  74. sequence will be assumed to be nucleotide.  This works in 97.3% of cases
  75. but watch out!
  76.  
  77.  
  78.  
  79.  
  80. The paper describing Clustal W is:
  81.  
  82. Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994)
  83. CLUSTAL W: improving the sensitivity of progressive multiple
  84. sequence alignment through sequence weighting, position specific
  85. gap penalties and weight matrix choice.
  86. Nucleic Acids Research, submitted, June 1994.
  87.  
  88.  
  89.  
  90. >>HELP 2 <<      Help for multiple alignments
  91.  
  92. If you have already loaded sequences, use menu item 1 to do the complete
  93. multiple alignment.  You will be prompted for 2 output files: 1 for the 
  94. alignment itself; another to store a dendrogram that describes the similarity
  95. of the sequences to each other.
  96.  
  97. Multiple alignments are carried out in 3 stages (automatically done from menu
  98. item 1 ...Do complete multiple alignments now):
  99.  
  100. 1) all sequences are compared to each other (pairwise alignments);
  101.  
  102. 2) a dendrogram (like a phylogenetic tree) is constructed, describing the
  103. approximate groupings of the sequences by similarity (stored in a file).
  104.  
  105. 3) the final multiple alignment is carried out, using the dendrogram as a guide.
  106.  
  107.  
  108. PAIRWISE ALIGNMENT parameters control the speed/sensitivity of the initial
  109. alignments.
  110.  
  111. MULTIPLE ALIGNMENT parameters control the gaps in the final multiple alignments.
  112.  
  113. RESET GAPS (menu item 7) will remove any new gaps introduced into the sequences
  114. during multiple alignment if you wish to change the parameters and try again.
  115. This only takes effect just before you do a second multiple alignment.  You
  116. can make phylogenetic trees after alignment whether or not this is ON.
  117. If you turn this OFF, the new gaps are kept even if you do a second multiple
  118. alignment. This allows you to iterate the alignment gradually.  Sometimes, the 
  119. alignment is improved by a second or third pass.
  120.  
  121. SCREEN DISPLAY can be used to send the output alignments to the screen 
  122. as well as to the output file.
  123.  
  124. You can skip the first stages (pairwise alignments; dendrogram) by using an
  125. old dendrogram file (menu item 3); or you can just produce the dendrogram
  126. with no final multiple alignment (menu item 2).
  127.  
  128. OUTPUT FORMAT: Menu item 9 (format options) allows you to choose from 5 
  129. different alignment formats (CLUSTAL, GCG, NBRF/PIR, PHYLIP and GDE).  
  130.  
  131. You can toggle between FAST/APPROXIMATE or SLOW/ACCURATE alignments for
  132. the initial alignments used to make the guide tree.  The fast ones are
  133. extremely fast but are less reliable than the slow ones.
  134. >>HELP 3 <<      Help for pairwise alignment parameters
  135. A distance is calculated between every pair of sequences and these are
  136. used to construct the dendrogram which guides the final multiple alignment.
  137. The scores are calculated from separate pairwise alignments.  These can be 
  138. calculated using 2 methods: dynamic programming (slow but accurate) or by the
  139. method of Wilbur and Lipman (extremely fast but approximate).   
  140.  
  141. You can choose between the 2 alignment methods using menu option 8.  The
  142. slow/accurate method is fine for short sequences but will be VERY SLOW
  143. for many (e.g. >20) long (e.g. >1000 residue) sequences.   
  144.  
  145.  
  146. SLOW/ACCURATE alignment parameters:
  147.  
  148. These parameters do not have any affect on the speed of the alignments.  They
  149. are used to give initial alignments which are then rescored to give percent
  150. identity scores.  These % scores are the ones which are displayed on the 
  151. screen.  The scores are converted to distances for the trees.
  152.  
  153. 1) Gap Open Penalty:      the penalty for opening a gap in the alignment.
  154. 2) Gap extension penalty: the penalty for extending a gap by 1 residue.
  155. 3) Protein weight matrix: the scoring table which describes the similarity of 
  156. each amino acid to each other.  For DNA, an identity matrix is used.
  157.  
  158.  
  159.  
  160. FAST/APPROXIMATE alignment parameters:
  161.  
  162. These similarity scores are calculated from fast, approximate, global align-
  163. ments, which are controlled by 4 parameters.   2 techniques are used to make
  164. these alignments very fast: 1) only exactly matching fragments (k-tuples) are
  165. considered; 2) only the 'best' diagonals (the ones with most k-tuple matches)
  166. are used.
  167.  
  168.  
  169. K-TUPLE SIZE:  This is the size of exactly matching fragment that is used. 
  170. INCREASE for speed (max= 2 for proteins; 4 for DNA), DECREASE for sensitivity.
  171. For longer sequences (e.g. >1000 residues) you may need to increase the default.
  172.  
  173.  
  174. GAP PENALTY:   This is a penalty for each gap in the fast alignments.  It has
  175. little affect on the speed or sensitivity except for extreme values.
  176.  
  177.  
  178.  
  179.  
  180.  
  181.  
  182. TOP DIAGONALS: The number of k-tuple matches on each diagonal (in an imaginary
  183. dot-matrix plot) is calculated.  Only the best ones (with most matches) are
  184. used in the alignment.  This parameter specifies how many.  Decrease for speed;
  185. increase for sensitivity.
  186.  
  187.  
  188. WINDOW SIZE:  This is the number of diagonals around each of the 'best' 
  189. diagonals that will be used.  Decrease for speed; increase for sensitivity.
  190.  
  191.  
  192. >>HELP 4 <<      Help for multiple alignment parameters
  193. These parameters control the final multiple alignment.  This is the core of
  194. the program and the details are complicated.  To fully understand the use
  195. of the parameters and the scoring system, you will have to refer to the
  196. documentation.
  197.  
  198. Each step in the final multiple alignment consists of aligning two alignments 
  199. or sequences.  This is done progressively, following the branching order in 
  200. the GUIDE TREE.  The basic parameters to control this are two gap penalties and
  201. the scores for various identical/non-indentical residues.  
  202.  
  203. 1) and 2) The GAP PENALTIES are set by menu items 1 and 2.  These control the 
  204. cost of opening up every new gap and the cost of every item in a gap.  
  205. Increasing the gap opening penalty will make gaps less frequent.  Increasing 
  206. the gap extension penalty will make gaps shorter.   Terminal gaps are not 
  207. penalised.
  208.  
  209. 3) The DELAY DIVERGENT SEQUENCES switch delays the alignment of the most
  210. distantly related sequences until after the most closely related sequences have 
  211. been aligned.   The setting shows the percent identity level required to delay
  212. the addition of a sequence; sequences that are less identical than this level
  213. to any other sequences will be aligned later.
  214.  
  215.  
  216.  
  217. 4) For DNA, the scoring system assigns a score of 3 for two identical bases
  218. and zero otherwise.   The TOGGLE TRANSITIONS switch (menu item 3) gives
  219. transitions (A <--> G or C <--> T i.e. purine-purine or pyrimidine-pyrimidine
  220. substitutions) a score of 1; otherwise, these are scored as mismatches and
  221. get a score of zero.  For distantly related DNA sequences, this switch 
  222. might be better turned off; for closely related sequences it can be useful.
  223.  
  224. 5) PROTEIN WEIGHT MATRIX leads to a new menu where you are offered a
  225. choice of weight matrices.   The default is the BLOSUM series of
  226. matrices by Jorja and Steven Henikoff.  Note, a series is used!  The actual
  227. matrix that is used depends on how similar the sequences to be aligned at this 
  228. alignment step are.   Different matrices work differently at each
  229. evolutionary distance.  Further help is offered in the weight matrix menu.
  230.  
  231. >>HELP A <<           Help for protein gap parameters.
  232. 1) RESIDUE SPECIFIC PENALTIES are amino acid specific gap penalties that reduce
  233. or increase the gap opening penalties at each position in the alignment or
  234. sequence.  See the documentation for details.  As an example, positions that 
  235. are rich in glycine are more likely to have an adjacent gap than positions that
  236. are rich in valine.
  237.  
  238. 2) 3) HYDROPHILIC GAP PENALTIES are used to increase the chances of a gap within
  239. a run (5 or more residues) of hydrophilic amino acids; these are likely to
  240. be loop or random coil regions where gaps are more common.  The residues that 
  241. are "considered" to be hydrophilic are set by menu item 3.
  242.  
  243. 4) GAP SEPARATION DISTANCE tries to decrease the chances of gaps being
  244. too close to each other.  Gaps that are less than this distance apart 
  245. are penalised more than other gaps.  This does not prevent close gaps;
  246. it makes them less frequent, promoting a block-like appearance of the alignment.
  247.  
  248. 5) END GAP SEPARATION treats end gaps just like internal gaps for the purposes
  249. of avoiding gaps that are too close (set by GAP SEPARATION DISTANCE above).
  250. If this is off (default), end gaps will be ignored for this purpose.  This is
  251. useful when you wish to align fragments where the end gaps are not biologically
  252. meaningful.
  253. >>HELP 5 <<      Help for output format options.
  254. Five output formats are offered.  You can choose more than one (or all 5 if
  255. you wish).  
  256.  
  257. CLUSTAL format output is a self explanatory alignment format.  It shows the
  258. sequences aligned in blocks.  It can be read in again at a later date to
  259. (for example) calculate a phylogenetic tree or add a new sequence with a 
  260. profile alignment.
  261.  
  262. GCG output can be used by any of the GCG programs that can work on multiple
  263. alignments (e.g. PRETTY, PROFILEMAKE, PLOTALIGN).  It is the same as the GCG
  264. .msf format files (multiple sequence file); new in version 7 of GCG.
  265.  
  266. PHYLIP format output can be used for input to the PHYLIP package of Joe 
  267. Felsenstein.  This is an extremely widely used package for doing every 
  268. imaginable form of phylogenetic analysis (MUCH more than the the modest intro-
  269. duction offered by this program).
  270.  
  271. NBRF/PIR:  this is the same as the standard PIR format with ONE ADDITION.  Gap
  272. characters "-" are used to indicate the positions of gaps in the multiple 
  273. alignment.   These files can be re-used as input in any part of clustal that
  274. allows sequences (or alignments or profiles) to be read in.  
  275.  
  276. GDE:  this format is used by the GDE package of Steven Smith.
  277.  
  278.  
  279. OUTPUT ORDER is used to control the order of the sequences in the output
  280. alignments.  By default, it is the same as the input order.  This switch can
  281. be used to make the order correspond to the order in which the sequences
  282. were aligned (from the guide tree/dendrogram), thus automatically grouping 
  283. closely related sequences.
  284. >>HELP 6 <<      Help for profile alignments
  285.  
  286. By PROFILE ALIGNMENT, we mean alignment to an existing alignment.  Either of the
  287. alignments can be a single sequence.  A profile is simply an alignment of
  288. one or more sequences (e.g. an alignment output file from Clustal W) or a set
  289. of unaligned sequences.
  290.  
  291. The profiles can be in any of the allowed input formats with "-" characters
  292. used to specify gaps (except for GCG/MSF where "." is used).
  293.  
  294. You have to specify the 2 profiles by choosing menu items 1 and 2 and giving
  295. 2 file names.  Then Menu item 3 will align the 2 profiles to each other. 
  296.  
  297. Menu item 4 will take the sequences in the second profile and align them to
  298. the first profile, 1 at a time.  This is useful to add some new sequences to
  299. an existing alignment.  In this case, the second profile need not be pre-
  300. aligned.
  301.  
  302. The alignment parameters can be set using menu items 6 and 7 ("Alignment 
  303. parameters"). These are EXACTLY the same parameters as used by the general, 
  304. automatic multiple alignment procedure.  The general multiple alignment proc-
  305. edure is simply a series of profile alignments.   Carrying out a series of 
  306. profile alignments on larger and larger groups of sequences, allows you to 
  307. manually build up a complete alignment.
  308.  
  309. Profile alignments allow you to store alignments of your favourite sequences 
  310. and add new sequences to them in small bunches at a time.  
  311. >>HELP 7 <<      Help for phylogenetic trees
  312. 1) Before calculating a tree, you must have an ALIGNMENT in memory.  This can be
  313. input in any format or you should have just carried out a full multiple 
  314. alignment and the alignment is still in memory.  Remember YOU MUST ALIGN THE
  315. SEQUENCES FIRST!!!!
  316.  
  317. The method used is the NJ (Neighbour Joining) method of Saitou and Nei.  First
  318. you calculate distances (percent divergence) between all pairs of sequence from
  319. a multiple alignment; second you apply the NJ method to the distance matrix.
  320.  
  321. 2) EXCLUDE POSITIONS WITH GAPS?  With this option, any alignment positions
  322. where ANY of the sequences have a gap will be ignored.  This means that 'like' 
  323. will be compared to 'like' in all distances.  It also, automatically throws
  324. away the most ambiguous parts of the alignment, which are concentrated around
  325. gaps (usually).  The disadvantage is that you may throw away much of
  326. the data if there are many gaps.  
  327.  
  328. 3) CORRECT FOR MULTIPLE SUBSTITUTIONS?  For small divergence (say <10%) this
  329. option makes no difference.  For greater divergence, this option corrects
  330. for the fact that observed distances underestimate actual evolutionary dist-
  331. ances.  This is because, as sequences diverge, more than one substitution will
  332. happen at many sites.  However, you only see one difference when you look at the
  333. present day sequences.  Therefore, this option has the effect of stretching
  334. branch lengths in trees (especially long branches).  The corrections used here
  335. (for DNA or proteins) are both due to Motoo Kimura.  See the documentation for
  336. details.  README.TXT describes a new modification for proteins distances.
  337.  
  338. For VERY divergent sequences, the distances cannot be reliably
  339. corrected.  You will be warned if this happens.  Even if none of the distances
  340. in a data set exceed the reliable threshold, if you bootstrap the data, 
  341. some of the bootstrap distances may randomly exceed the safe limit.  
  342.  
  343.  
  344. 4) To calculate a tree, use option 4 (DRAW TREE NOW).  This gives an UNROOTED
  345. tree and all branch lengths.  The root of the tree can only be inferred by
  346. using an outgroup (a sequence that you are certain branches at the outside
  347. of the tree .... certain on biological grounds) OR if you assume a degree
  348. of constancy in the 'molecular clock', you can place the root in the 'middle'
  349. of the tree (roughly equidistant from all tips).
  350.  
  351. 5) BOOTSTRAPPING is a method for deriving confidence values for the groupings in
  352. a tree (first adapted for trees by Joe Felsenstein).   It involves making N
  353. random samples of sites from the alignment (N should be LARGE, e.g. 500 - 1000);
  354. drawing N trees (1 from each sample) and counting how many times each grouping
  355. from the original tree occurs in the sample trees.   You must supply a seed 
  356. number for the random number generator.  Different runs with the same seed
  357. will give the same answer.  See the documentation for details.
  358.  
  359. 6) OUTPUT FORMATS:  three different formats are allowed.  None of these
  360. displays the tree visually.  You must make the tree yourself (on paper)
  361. using the results OR get the PHYLIP package and use the tree drawing facilities
  362. there.  (Get the PHYLIP package anyway if you are interested in trees).
  363.  
  364. >>HELP 8 <<      Help for choosing protein weight matrix
  365. For protein alignments, you use a weight matrix to determine the similarity of
  366. non-identical amino acids.  For example, Tyr aligned with Phe is usually judged 
  367. to be 'better' than Tyr aligned with Pro.   These are not used with DNA.
  368.  
  369. There are two 'in-built' series of weight matrices offered.  Each consists
  370. of several matrices which work differently at different evolutionary distances.
  371. To see the exact details, read the documentation.  Crudely, we store several
  372. matrices in memory, spanning the full range of amino acid distance (from
  373. almost identical sequences to highly divergent ones).   For very similar
  374. sequences, it is best to use a strict weight matrix which only gives a high
  375. score to identities and the most favoured conservative substitutions.  For
  376. more divergent sequences, it is appropriate to use "softer" matrices which
  377. give a high score to many other frequent substitutions.
  378.  
  379. 1) BLOSUM (Henikoff).   These matrices appear to be the best available for 
  380. carrying out data base similarity (homology searches).  The matrices used are:
  381. Blosum80, 62, 40 and 30.
  382.  
  383. 2) PAM (Dayhoff).  These have been extremely widely used since the late '70s.
  384. We use the PAM 120, 160, 250 and 350 matrices.
  385.  
  386. We also supply an identity matrix which gives a score of 10 to two identical 
  387. amino acids and a score of zero otherwise.  This matrix is not very useful.
  388. Alternatively, you can read in your own (just one matrix, not a series).
  389.  
  390. A new matrix can be read from a file on disk, if the filename consists only
  391. of lower case characters. The values in the new weight matrix must be integers
  392. and the scores should be similarities.  You can use negative as well as positive
  393. values if you wish, although the matrix will be automatically adjusted to all
  394. positive scores.
  395.  
  396. INPUT FORMAT  The format used for a new matrix is the same as the BLAST program.
  397. Any lines beginning with a # character are assumed to be comments. The first
  398. non-comment line should contain a list of amino acids in any order, using the
  399. 1 letter code, followed by a * character. This should be followed by a square
  400. matrix of integer scores, with one row and one column for each amino acid. The
  401. last row and column of the matrix (corresponding to the * character) contain
  402. the minimum score over the whole matrix.
  403. >>HELP 9 <<      Help for command line parameters
  404.                 DATA (sequences)
  405.  
  406. /INFILE=file.ext                             :input sequences.
  407. /PROFILE1=file.ext  and  /PROFILE2=file.ext  :profiles (old alignment).
  408.  
  409.                 VERBS (do things)
  410.  
  411. /OPTIONS        :list the command line parameters
  412. /HELP  or /CHECK    :outline the command line params.
  413. /ALIGN              :do full multiple alignment 
  414. /TREE               :calculate NJ tree.
  415. /BOOTSTRAP(=n)      :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
  416.  
  417.                 PARAMETERS (set things)
  418.  
  419. ***General settings:****
  420. /INTERACTIVE :read command line, then enter normal interactive menus
  421. /QUICKTREE   :use FAST algorithm for the alignment guide tree
  422. /NEWTREE=    :file for new guide tree
  423. /USETREE=    :file for old guide tree
  424. /NEGATIVE    :protein alignment with negative values in matrix
  425. /OUTFILE=    :sequence alignment file name
  426. /OUTPUT=     :GCG, GDE, PHYLIP or PIR
  427. /OUTORDER=   :INPUT or ALIGNED
  428. /CASE        :LOWER or UPPER (for GDE output only)
  429.  
  430. ***Fast Pairwise Alignments:***
  431. /KTUP=n      :word size                  /TOPDIAGS=n  :number of best diags.
  432. /WINDOW=n    :window around best diags.  /PAIRGAP=n   :gap penalty
  433. /SCORE       :PERCENT or ABSOLUTE
  434.  
  435. ***Slow Pairwise Alignments:***
  436. /PWMATRIX=   :BLOSUM, PAM, ID or filename
  437. /PWGAPOPEN=f :gap opening penalty        /PWGAPEXT=f  :gap opening penalty
  438.  
  439. ***Multiple Alignments:***
  440. /MATRIX=     :BLOSUM, PAM, ID or filename
  441. /GAPOPEN=f   :gap opening penalty        /GAPEXT=f    :gap extension penalty
  442. /ENDGAPS     :no end gap separation pen. /GAPDIST=n   :gap separation pen. range
  443. /NORGAP      :Residue specific gaps off  /NOHGAP      :hydrophilic gaps off
  444. /HGAPRESIDUES= :list hydrophilic res.    /MAXDIV=n    :% ident. for delay
  445. /TYPE=       :PROTEIN or DNA             /TRANSITIONS :transitions NOT weighted.
  446.  
  447. ***Trees:***                             /SEED=n    :seed number for bootstraps.
  448. /KIMURA      :use Kimura's correction.   /TOSSGAPS  :ignore positions with gaps.
  449.  
  450. >>HELP 0 <<           Help for tree output format options
  451.  
  452. Three output formats are offered: 1) Clustal, 2) Phylip/TreeTool, 
  453. 3) Just the distances.
  454.  
  455. None of these formats displays the results graphically.  To see a graphic
  456. representation of a tree (not a bootstrapped tree), get the PHYLIP package and
  457. use format 2) below.  It can be imported into the PHYLIP programs RETREE, 
  458. DRAWTREE and DRAWGRAM and displayed graphically.  TreeTool can also do this
  459. but is only available for SUN (by ftp from rdp.life.uiuc.edu).  TreeTool,
  460. however has a neat facility for labels on internal nodes which we use to
  461. display bootstrap figures on the bootstrap trees.  If you do not have TreeTool,
  462. please request the trees in Clustal format 1) below.
  463.  
  464.  
  465. 1) Clustal format output.  
  466. This format is verbose and lists all of the distances between the sequences
  467. and the number of alignment positions used for each.   The tree is described
  468. at the end of the file.  It lists the sequences that are joined at each 
  469. alignment step and the branch lengths.  After two sequences are joined, it is 
  470. referred to later as a NODE.  The number of a NODE is the number of the 
  471. lowest sequence in that NODE.   
  472.  
  473. 2) Phylip or TreeTool format output.
  474. This format is the New Hampshire format, used by many phylogenetic analysis
  475. packages.  It consists of a series of nested parentheses, describing the
  476. branching order, with the sequence names and branch lengths.  With a simple
  477. tree, it can be used by the RETREE, DRAWGRAM and DRAWTREE programs of the PHYLIP
  478. package to see the trees graphically.  This is the same format used during
  479. multiple alignment for the guide trees.
  480.  
  481. With a bootstrap tree, you need to use TreeTool or request format 1) above.
  482.  
  483. 3) The distances only.
  484. This format just outputs a matrix of all the pairwise distances in a format
  485. that can be used by the Phylip package.  It used to be useful when one
  486. could not produce distances from protein sequences in the Phylip package but
  487. is now redundant (Protdist of Phylip 3.5 now does this).
  488.